🔥Hot News: Сегодня мы добавили на Арену сразу ДВА бенчмарка
Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.
➡️PingPong Benchmarkтестирует модели в ролевых диалогах. Здесь LLM-ки не только генерируют ответы, но и выступают в роли пользователей. Набор персонажей и ситуаций проверяет способность модели сохранять выбранную роль в многораундовой беседе.
Оценка идет по трем критериям: - Соответствие персонажу — насколько точно модель играет свою роль. - Развлекательность — насколько интересны её ответы. - Языковая грамотность — естественность и корректность речи.
Результат — усредненный рейтинг по всем параметрам.
➡️Simple-Evals-RU— это бенчмарк, который проверяет модели на математических, логических и программных задачах. Он включает тесты MGSM, MATH, HumanEval, MMLU-Pro и BBH, а также сравнивает стоимость работы моделей на миллион токенов.
Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.
Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru➡️ во вкладке «Таблица лидеров» ➡️ «PingPong» и «Simple-Evals».
Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇
🔥Hot News: Сегодня мы добавили на Арену сразу ДВА бенчмарка
Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.
➡️PingPong Benchmarkтестирует модели в ролевых диалогах. Здесь LLM-ки не только генерируют ответы, но и выступают в роли пользователей. Набор персонажей и ситуаций проверяет способность модели сохранять выбранную роль в многораундовой беседе.
Оценка идет по трем критериям: - Соответствие персонажу — насколько точно модель играет свою роль. - Развлекательность — насколько интересны её ответы. - Языковая грамотность — естественность и корректность речи.
Результат — усредненный рейтинг по всем параметрам.
➡️Simple-Evals-RU— это бенчмарк, который проверяет модели на математических, логических и программных задачах. Он включает тесты MGSM, MATH, HumanEval, MMLU-Pro и BBH, а также сравнивает стоимость работы моделей на миллион токенов.
Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.
Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru➡️ во вкладке «Таблица лидеров» ➡️ «PingPong» и «Simple-Evals».
Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇
From the Files app, scroll down to Internal storage, and tap on WhatsApp. Once you’re there, go to Media and then WhatsApp Stickers. Don’t be surprised if you find a large number of files in that folder—it holds your personal collection of stickers and every one you’ve ever received. Even the bad ones.Tap the three dots in the top right corner of your screen to Select all. If you want to trim the fat and grab only the best of the best, this is the perfect time to do so: choose the ones you want to export by long-pressing one file to activate selection mode, and then tapping on the rest. Once you’re done, hit the Share button (that “less than”-like symbol at the top of your screen). If you have a big collection—more than 500 stickers, for example—it’s possible that nothing will happen when you tap the Share button. Be patient—your phone’s just struggling with a heavy load.On the menu that pops from the bottom of the screen, choose Telegram, and then select the chat named Saved messages. This is a chat only you can see, and it will serve as your sticker bank. Unlike WhatsApp, Telegram doesn’t store your favorite stickers in a quick-access reservoir right beside the typing field, but you’ll be able to snatch them out of your Saved messages chat and forward them to any of your Telegram contacts. This also means you won’t have a quick way to save incoming stickers like you did on WhatsApp, so you’ll have to forward them from one chat to the other.
Telegram Gives Up On Crypto Blockchain Project
Durov said on his Telegram channel today that the two and a half year blockchain and crypto project has been put to sleep. Ironically, after leaving Russia because the government wanted his encryption keys to his social media firm, Durov’s cryptocurrency idea lost steam because of a U.S. court. “The technology we created allowed for an open, free, decentralized exchange of value and ideas. TON had the potential to revolutionize how people store and transfer funds and information,” he wrote on his channel. “Unfortunately, a U.S. court stopped TON from happening.”